首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏python前行者

    pdfmarkdown

    六个开源的PDFMarkdown项目 ✨ 1: gptpdf gptpdf 是一个利用VLLM解析PDFMarkdown的工具,几乎完美支持数学公式、表格等。 GPTPDF 是一个使用视觉大模型(如 GPT-4o)将 PDF 文件解析成 Markdown 文件的工具。 --input:指定要转换的PDF文件路径。 --output:指定转换后的Markdown文件存储路径。 基本逻辑如下: 提供一个 PDF 文件(URL 或文件缓冲区)。 将 PDF 转换成一系列图像。 将每个图像传给 GPT,让其生成 Markdown 格式的文本。 功能介绍:Magic-PDF 能将 PDF 文档转换为 Markdown 格式,可以处理本地存储或支持 S3 协议的对象存储中的文件。

    2.6K10编辑于 2024-11-24
  • 来自专栏技术研究和应用

    MarkdownPDF

    markdownpdf是比较常见的需求,有许多成熟的工具可以实现,比如pandoc和wkhtml2pdf,很多工具都是对这些的进一步包装。 字符串pdf的示例代码如下,pandoc底层调用了texlive。 def markdown_to_pdf(markdown_text: str) -> bytes: with tempfile.NamedTemporaryFile(suffix=".pdf", 'rb') as pdf_file: pdf_bytes = pdf_file.read() return pdf_bytespdfkitmarkdownpdf的流程如下:使用markdown (4)代码示例def markdown_to_pdf(markdown_text: str) -> str: # Convert Markdown to HTML html = markdown.markdown

    2.3K10编辑于 2024-09-02
  • 来自专栏图形学与OpenGL

    Markdown文件pdf方法

    虽然markdown很方便,但有时候为了其它目的,还是需要将它转为更通用的PDF格式的文档,比如博客上教材的勘误表太宽,在网页显示需要拖动水平下拉条才能浏览全部,因此有读者希望有一份pdf文件方便查看。 本文就是记录一下最近在探索把Markdown转为pdf时候的两种简单方法。 转换工具 VSCode及其插件:Markdown Preview Enhanced(MPE)。 需要说明的是,VSCode本身不装这个MPE插件也可以预览Markdown,只是预览效果与功能没有MPE强大而已。 Chrome 转换方法1,一键生成,无需设置 (1) 打开md文件利用MPE插件预览; (2) 在预览页右击选择Chrome(Puppeteer)点击PDF即可。 页边距,纸张大小 (1) 打开md文件利用MPE插件预览; (2) 在预览页右击选择Open in Browser并点击,在Chrome中显示为html; (3) 在Chrome中将html打印为pdf

    12.5K40发布于 2020-10-29
  • 来自专栏技术综合

    markdown pdf 以及 mardown html

    项目地址: https://github.com/klren0312/markdownConvert 1.markdown pdf 1.使用第三方库 markdown-pdf rimraf 2 .代码解读 1.引入库 const mtp = require('markdown-pdf') const fs = require('fs') const path = require('path') const rm = require('rimraf') 2.初始化文件目录 需要将存在的 pdf 目录清除重建 const mdFolder = 'markdown' // md目录 const , 读取 markdown 文件流, 并转换为pdf数据流, 最后存入 pdf 文件中 fs.readdir(path.resolve(mdFolder), (err, files) => { // 读取 (`${file} => ${fileName}.pdf 成功, 当前转换进度 ${sum} / ${total}`) }) }) mardown html 1.使用第三方库 showdown

    3.3K40发布于 2020-08-25
  • 来自专栏Markdown

    Markdown PDF:如何用免费在线工具将 Markdown 转换成 PDF 文档

    无论是撰写技术方案、项目报告,还是投递个人简历,Markdown都是开发者心目中的“白月光”。但在交付文档时,PDF依然是不可撼动的通用标准:排版固定、跨平台兼容、打印友好。 然而,传统的MarkdownPDF方案往往让人头疼:命令行工具Pandoc配置太复杂,本地编辑器导出的样式又太单一,我个人推荐无需安装、在浏览器就能完成高质量转换的在线转换工具。 为什么推荐在线工具处理PDF转换?PDF转换最大的痛点不在于文字,而在于分页控制。很多工具转出来的PDF,代码块会被分页线从中间劈开,标题会孤零零地挂在页面底部。 实战操作:只需3步第一步:导入Markdown内容访问在线MarkdownPDF工具,你可以直接在左侧编辑器粘贴文本,或者直接拖拽.md文件进行上传。右侧会立即呈现预览效果。 第三步:导出PDF(关键设置技巧)点击“下载PDF”按钮,会弹出全屏预览界面。确认无误后点击“另存为PDF”,在浏览器的打印对话框中,请务必注意以下几点设置:目标打印机:选择“另存为PDF”。

    10120编辑于 2026-03-24
  • 来自专栏前端框架

    免费的MarkdownPDF工具开源教程

    MarkdownPDF工具回归正题,有时使用平台的markdown editor编辑器可以实时渲染成HTML,但有时想保存文字下来复制粘贴不方便,为了方便大家使用基本上AI也能实现回答内容导出成PDF 了,于是我就也手搓一个Markdown to PDF工具,测试预览地址:https://www.markdownlang.com/markdown-to-pdf/Markdown to PDF 是一款免费实用的在线转换工具 ,专注于将 Markdown 内容高效转为 PDF 格式,无论是本地 .md 文件还是 GitHub 上的 Markdown 文档,都能通过简单三步完成转换。 ##MarkdownPDF实现代码

    <div class="panel-header import('html2<em>pdf</em>.js')).default const opt = { margin: 10, filename: '<em>markdown</em>.<em>pdf</em>

    39110编辑于 2026-01-21
  • 来自专栏技术指北

    marker——快速精准的将PDFMarkdown

    有些时候,我们需要将PDF转换成Markdown格式,但是通常情况下是无法直接的。一般来说,我们需要先将PDF文档先OCR识别一下,然后再转换成markdown。 需要注意的是,由于 PDF 格式的复杂性和多样性,有一些特殊的符号以及公式 往往在处理的时候会出问题。 今天要介绍的项目是marker,就可以很好的解决这个问题,marker是一款基于深度学习模型的将PDF转换成Markdown格式的工具。 可以提取并保存 PDF 中的图像。 支持 GPU、CPU 或者 MPS(多处理器系统)进行转换,以满足不同硬件环境下的需求。 执行命令 pip3 install marker-pdf 更详细的使用文档,可以参考github上的文档:https://github.com/VikParuchuri/marker?

    2.6K00编辑于 2024-12-25
  • 来自专栏《Cloud Studio》

    免费部署PDFMarkdown文件的方法

    Markdown文件的方法为了能让AI大语言模型,更好的学习特定的知识,一个解决方法是,将特定的资料,录入知识库中,供AI大模型进行索引和回答,相当于现学现用。 对于PDF文档,一个比较推荐的解决方案是,先将PDF文件转成Markdown文件,再录入知识库中。 MinerU关于PDFMarkdown的工具,一个比较不错的工具是MinerU,这是一个开源免费的转换工具。 PDF原版是双栏,转录可以很好的识别双栏格式2. 转录可以很好的识别跨页分段,比如说,原版中,完整的一段,被跨页分割,但是转录后的Markdown很好的识别成了完全的一段原版PDF转换后Markdown后面我们基于Markdown做一个翻译接口,就可以更直观的阅读

    1.4K00编辑于 2025-03-13
  • 来自专栏七嘴八舌

    开源神器来袭:Markdown PDF,从此不再求人!

    整理过程中发现,需要进行Markdown文件PDF文件。于是乎顺便水一篇文章好了。2、主流工具对比网上其实也有了很多现成可用的工具。这里顺便整理了一下。 2.3、VS Code + Markdown Preview Enhanced核心能力:通过浏览器打印功能生成 PDF,支持自定义 CSS 调整打印样式(如页边距、分页控制)。 3.1、技术栈Python 3.11PyQt5:用于构建现代化的图形用户界面markdown2:提供Markdown到HTML的转换功能pdfkit: 提供HTML到PDF的转换功能wkhtmltopdf : PDF生成引擎3.2、功能特性批量转换:支持将整个文件夹的Markdown文件批量转换为PDF自定义页眉页脚:可以为生成的PDF文件添加自定义的页眉和页脚实时进度显示:转换过程中显示实时进度自动页码 后续持续完善......3.6、开源该项目代码已经上传到github:https://github.com/Shamee99/Markdown2PDF

    7.6K10编辑于 2025-03-15
  • 来自专栏IT杂记

    Pandoc安装实现MarkdownPDF (CentOS6)

    是一种包管理器,可以很方便的自动安装各种包和依赖,pandoc就是使用cabal来安装的,TeX是一种文档排版系统,texlive是like unix下的一种TeX实现,对TeX的理解不深,所以先这么简单理解了,PDF Pandoc使用 安装好后就可以使用pandoc命令来执行转换操作了,使用pandoc将带有中文的markdown转为pdf $ pandoc -N --toc --columns=10 --latex-engine =xelatex -V CJKmainfont=STSong -V geometry:margin=1in -o test.pdf test.md 参数说明: -N        为章节进行数字编号 - 这个字体在Centos上须要先安装好 -V geometry:margin=1in   指定上下左右的空白尺寸 -o 指定输出文件名 总结 pandoc非常的强大,可以对几乎所有的文档格式进行互转,比如markdown ,docx,pdf,html,docbook,epub等等。

    3K60发布于 2018-02-08
  • 来自专栏oktools

    PDF图片,在线PDFJPGPNG

    在线DEMO 原理 使用pdf.js预览图片,pdf.js将pdf通过canvas将每一页渲染出来,然后我们通过canvas的toDataURL方法保存为jpg或png格式。 pdf.js是Mozilla开源的一个js库,无需任何本地支持就可以在浏览器上显示pdf文档。唯一的要求就是浏览器必须支持HTML5。 依赖 需要pdf.min.js和pdf.worker.min.js两个js文件 全部代码实现 pdfjsLib.GlobalWorkerOptions.workerSrc = 'https://cdn.bootcss.com /pdf.js/2.2.228/pdf.worker.min.js'; const preview = document.getElementById('preview'); const loadingTask = pdfjsLib.getDocument(url); loadingTask.promise.then(function (doc) { pdf

    17.3K40发布于 2019-08-30
  • 来自专栏Hank’s Blog

    markdown转为pdf文件

    要求: 把.md格式转为.pdf格式,并批量处理,最后将多个pdf文件合并为一个pdf并以文件名作为书签名 解决思路: 1.md格式的markdown文件转为html 为了将 md 格式转换成 html 文件,我们需要用到 markdown 和 codecs 这两个库。 pip install markdown 完整代码如下: import markdown import os import codecs head = """<! (filepath) fp1 = codecs.open(name, mode="r", encoding="utf-8") text = fp1.read() html = markdown.markdown 将其合并输出到一个pdf文件中,输出的pdf文件默认带书签,书签名为之前的文件名 #默认情况下原始文件的书签不会导入,使用import_bookmarks=True可以将原文件所带的书签也导入到输出的pdf

    1.3K10发布于 2020-09-17
  • 来自专栏GhostCN_Z

    PDF图片

    经过测试,fitz是目前PDF图片相对较简单快捷且无bug的一个方法,不会出现转换图片时白屏的情况。弊端是转换较慢。 fitz——高质量PDF 安装 pip install traits pip install fitz pip install PyMuPDF 示例 import os import fitz import (file_path) # 日志模块 logger.add('pdf2png.log', format="{time} {level} {message}", level="INFO") # pdf_image (r"E:\PyPro\小功能\PDF切割图片\PDF\0700000062.pdf", r"E:\PyPro\小功能\PDF切割图片\PNG\\", 2, 2, 0) def pdf_image(pdfPath 文件 pdf = fitz.open(pdfPath) # 逐页读取PDF for pg in range(0, pdf.pageCount):

    4.7K30发布于 2021-08-04
  • 来自专栏小小码农一个。

    pdf 图片

    artifact/org.apache.pdfbox/pdfbox compile group: 'org.apache.pdfbox', name: 'pdfbox', version: '1.8.16' pdf 单页图片 合并一张的工具库 前往aspose-words word图片 下载使用 /** * 将pdf转成一张图片 * @param pdffile * @return * @throws /文件上传路径 String parent = file.getParent(); PDDocument doc = PDDocument.load(inputStream); //获取pdf )); if(png == false){ return "转换失败"; } //关闭流 inputStream.close(); return "转换成功"; } pdf 每页图片 放到文件夹内 转换成压缩包 也可以不放压缩包 随意 压缩包工具类 java实现文件压缩,文件夹压缩,以及文件和文件夹的混合压缩 // 将pdf 转化为 图片分页 压缩包 public

    5.3K00发布于 2020-06-08
  • 来自专栏IT民工的代码世界

    wordpdf

    在日常代码开发中经常用到的功能就是wordpdf,下面就来介绍两种的方式 第一种:Aspose.word aspose的开源组件非常多,比如excel的导出,支持的合并单元等功能非常好用,这里用到的是 Aspose.Words.Document doc = new Aspose.Words.Document(inputFileName); //aspose.words将docpdf ref paramMissing); //EpointLog4Net.Info(BizLogic.LogName, "docpdf catch (Exception ex) { //EpointLog4Net.Error(BizLogic.LogName, "docpdf catch (Exception err) { //EpointLog4Net.Error(BizLogic.LogName, "docpdf

    3.4K30编辑于 2023-07-19
  • 来自专栏IT当时语_青山师_JAVA技术栈

    Xmindmarkdown教程

    这里分享一篇Xmind思维导图markdown的教程。 https://pan.baidu.com/s/1norGGclqzefnmEfD4tqQ5w 提取码:xceu 以下是前面示例思维导图的导出的OPML,然后使用typora 导入OPML,打开的markdown

    3.4K10编辑于 2023-05-05
  • 来自专栏快乐阿超

    markdownhtml插件

    ——但丁 商店页 使用方式很简单 直接右键选择markdown转换即可 然后就好了

    4.1K10编辑于 2022-08-16
  • pdf图片

    pdf图片把 PDF 转成图片是个很简单的事,可以让你更方便地分享、查看或编辑页面。很多人需要把 PDF 的页面做成图片去发到网站、放到演示文稿里,或发送到不支持 PDF 的设备。 当你只需要单页而不是整个 PDF 时,图片也很方便。还有些查看器和编辑器只接受图片文件不接受 PDF,转换能增加使用选择。 另外我也见过人用磨针工具软件在 Windows 上快速批量图,设置好分辨率一键导出,挺方便的。 有人推荐过磨针工具软件的网页版,可以直接上传小文件快速,使用体验挺直观的,不过别上传敏感文件。质量和文件大小小贴士更高的分辨率会得到更清晰的图片,但文件会更大。 图片能再转回 PDF 吗?可以。大多数系统和应用能把多张图片合并成一个 PDF,方法有打印为 PDF、图片查看器或命令行工具(如 ImageMagick)。

    59700编辑于 2025-10-10
  • wordpdf

    import comtypes.client import os from datetime import datetime def convert_word_to_pdf_comtypes(word_file , pdf_file): try: word = comtypes.client.CreateObject('Word.Application') word.Visible = False doc = word.Documents.Open(word_file) doc.SaveAs(pdf_file, FileFormat=17) # 17 代表 PDF 格式 doc.Close() word.Quit() timestamp = datetime.now().strftime("%Y- = os.path.join(folder_path, os.path.splitext(filename)[0] + ".pdf") convert_word_to_pdf_comtypes

    38310编辑于 2025-07-16
  • 来自专栏shigen的学习笔记

    jupyter文档markdown

    背景上一篇文章《如何优雅地用python生成模拟数据》我就使用jupyter写的,这个真的是万能的,可以插入markdown格式的内容,也可写代码,关键是像ipython一样,可以分步执行。 没办法,我得去研究一下如何转换成markdown格式的文件了。 “众里寻她千百度”,我找到了一个很nice的文章,在这里做了一个分享,Jupyter Notebook文件markdown过程本次我们操作需要的库是nbconvert, 它的依赖库是pandoc,OK pip install nbconvert pandoc作者还贴心的准备了pdf的库,如果需要pdf: Chromium pyppeteer/pyppeteer安装完毕,就可以使用啦。 --to markdown faker.ipynb输出的是啥?

    61320编辑于 2023-08-07
领券